在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
Recent work has reported that AI classifiers trained on audio recordings can accurately predict severe acute respiratory syndrome coronavirus 2 (SARSCoV2) infection status. Here, we undertake a large scale study of audio-based deep learning classifiers, as part of the UK governments pandemic response. We collect and analyse a dataset of audio recordings from 67,842 individuals with linked metadata, including reverse transcription polymerase chain reaction (PCR) test outcomes, of whom 23,514 tested positive for SARS CoV 2. Subjects were recruited via the UK governments National Health Service Test-and-Trace programme and the REal-time Assessment of Community Transmission (REACT) randomised surveillance survey. In an unadjusted analysis of our dataset AI classifiers predict SARS-CoV-2 infection status with high accuracy (Receiver Operating Characteristic Area Under the Curve (ROCAUC) 0.846 [0.838, 0.854]) consistent with the findings of previous studies. However, after matching on measured confounders, such as age, gender, and self reported symptoms, our classifiers performance is much weaker (ROC-AUC 0.619 [0.594, 0.644]). Upon quantifying the utility of audio based classifiers in practical settings, we find them to be outperformed by simple predictive scores based on user reported symptoms.
translated by 谷歌翻译
Since early in the coronavirus disease 2019 (COVID-19) pandemic, there has been interest in using artificial intelligence methods to predict COVID-19 infection status based on vocal audio signals, for example cough recordings. However, existing studies have limitations in terms of data collection and of the assessment of the performances of the proposed predictive models. This paper rigorously assesses state-of-the-art machine learning techniques used to predict COVID-19 infection status based on vocal audio signals, using a dataset collected by the UK Health Security Agency. This dataset includes acoustic recordings and extensive study participant meta-data. We provide guidelines on testing the performance of methods to classify COVID-19 infection status based on acoustic features and we discuss how these can be extended more generally to the development and assessment of predictive methods based on public health datasets.
translated by 谷歌翻译
The UK COVID-19 Vocal Audio Dataset is designed for the training and evaluation of machine learning models that classify SARS-CoV-2 infection status or associated respiratory symptoms using vocal audio. The UK Health Security Agency recruited voluntary participants through the national Test and Trace programme and the REACT-1 survey in England from March 2021 to March 2022, during dominant transmission of the Alpha and Delta SARS-CoV-2 variants and some Omicron variant sublineages. Audio recordings of volitional coughs, exhalations, and speech were collected in the 'Speak up to help beat coronavirus' digital survey alongside demographic, self-reported symptom and respiratory condition data, and linked to SARS-CoV-2 test results. The UK COVID-19 Vocal Audio Dataset represents the largest collection of SARS-CoV-2 PCR-referenced audio recordings to date. PCR results were linked to 70,794 of 72,999 participants and 24,155 of 25,776 positive cases. Respiratory symptoms were reported by 45.62% of participants. This dataset has additional potential uses for bioacoustics research, with 11.30% participants reporting asthma, and 27.20% with linked influenza PCR test results.
translated by 谷歌翻译
对于放射科医生和深度学习算法而言,MRI的早期前列腺癌检测和分期是极具挑战性的任务,但是向大型和多样化数据集学习的潜力仍然是提高其内部和整个诊所的概括能力的有希望的途径。为了对原型阶段算法进行此项启用,其中大多数现有研究仍然存在,在本文中,我们引入了一个灵活的联合学习框架,用于跨站点培训,验证和评估深前列腺癌检测算法。我们的方法利用了模型体系结构和数据的抽象表示,该表示允许使用NVFlare联合学习框架对未打磨的原型深度学习模型进行培训。我们的结果表明,使用专门的神经网络模型以及在加利福尼亚大学两家研究医院收集的专门神经网络模型以及不同的前列腺活检数据的前列腺癌检测和分类精度的提高,这证明了我们方法在适应不同数据集并改善MR-Biomarker发现的方法方面的功效。我们开源的FLTOOLS系统可以很容易地适应其他深度学习项目进行医学成像。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
每年在美国犯下数十个恐怖袭击,往往会导致死亡和其他重大损害。在更好地理解和减轻这些攻击的结束时,我们展示了一组机器学习模型,用于从本地化的新闻数据中学习,以预测恐怖主义攻击是否将在给定的日历日期和给定状态上发生。最佳模型 - 一种随机森林,了解特征空间的新型可变长度移动平均表示 - 在接收器经营特征下实现的地区分数为$> .667美元,这是由恐怖主义影响最多的五个州的四个国家在2015年和2018年之间。我们的主要发现包括将恐怖主义建模为一系列独立事件,而不是作为一个持续的过程,是一种富有成果的方法 - 尤其是当事件稀疏和异常时。此外,我们的结果突出了对位置之间的差异的本地化模型的需求。从机器学习的角度来看,我们发现随机森林模型在我们的多模式,嘈杂和不平衡数据集上表现出几种深刻的模型,从而展示了我们的新颖特征表示方法在这种情况下的功效。我们还表明,其预测是对攻击之间的时间差距和观察到攻击特征的预测相对稳健。最后,我们分析了限制模型性能的因素,包括嘈杂的特征空间和少量可用数据。这些贡献为利用机器学习在美国及以后的恐怖主义努力中提供了重要的基础。
translated by 谷歌翻译
生态瞬间评估(EMAS)是用于测量移动卫生(MHECHEATH)研究和治疗方案的当前认知状态,影响,行为和环境因素的重要心理数据源。非反应,其中参与者未能响应EMA提示,是一个地方问题。准确预测非响应的能力可用于改善EMA交付和发展顺应性干预。事先工作已经探索了古典机器学习模型,以预测非反应。然而,正如越来越大的EMA数据集可用,有可能利用在其他领域有效的深度学习模型。最近,变压器模型在NLP和其他域中显示了最先进的性能。这项工作是第一个探索用于EMA数据分析的变压器的使用。我们在将变压器应用于EMA数据时解决了三个关键问题:1。输入表示,2.编码时间信息,3.预先培训提高下游预测任务性能的效用。变压器模型实现了0.77的非响应预测AUC,并且明显优于古典ML和基于LSTM的深度学习模型。我们将使我们的一个预测模型在研究界可自由地提供40k EMA样品的核查,以便于开发未来的基于变压器的EMA分析工作。
translated by 谷歌翻译
我们介绍了Galaxy动物园贴花:SDSS DR8占地面积的星系中的黑色能量相机传统调查图像的详细视觉形态学分类。更深的贴花图像(R = 23.6与SDSS的r = 22.2)显示螺旋臂,弱杆和在SDSS成像中未见的潮汐功能。为了最佳利用较大的贴花图像,志愿者从一套新的答案中选择,旨在提高对合并和酒吧的敏感性。 Galaxy动物园志愿者提供750万个单独的分类超过314,000个星系。 140,000个星系收到至少30分类,足以准确测量像条状的详细的形态,其余的收到约5.所有分类都用于培训贝叶斯卷积神经网络的集合(一种最先进的深度学习方法)预测所有314,000个星系的详细形态的后海外。当衡量自信的志愿者分类时,每个问题的网络大约有99%。形态学是每个星系的基本特征;我们的人机和机器分类是理解星系如何发展的准确和详细资源。
translated by 谷歌翻译
对于谈话的AI和虚拟助手以现实的方式与人类沟通,他们必须表现出人类特征,例如情感和个性的表达。目前对构建人类对话剂的尝试呈现出显着的困难。我们提出基于Tropes的人为水平属性(HLA)作为学习对话代理的方法,这些方法可以模仿虚构人物的个性。 Tropes是由观察员的次要观察和确定的虚构个性的特征。通过将详细的HLA数据与特定字符的对话数据组合,我们提供了一个数据集,HLA-Chat,模型字符配置文件,并提供对话代理通过HLA学习角色语言样式的能力。然后,我们介绍了一个三组件系统,Aloha(代表人工学习人为学习),它结合了字符空间映射,角色社区检测和语言样式检索,以构建特定字符(或个性)特定语言模型。我们的初步实验表明Aloha的两种变化与我们提出的数据集相结合,可以在识别所选择的目标字符的正确对话响应时占据基线模型,并且无论字符的身份,节目类型如何,都是稳定的对话。
translated by 谷歌翻译